04_하이브리드 네트워크 가용성 설계

문제

온프레미스 데이터센터와 클라우드를 연결하는 전용선이 단일 회선으로 구성되어, 해당 회선의 장애나 점검 발생 시 하이브리드 환경의 서비스가 전면 중단될 위험이 있습니다. 비즈니스 연속성을 위해 Enterprise급 가용성을 확보해야 합니다.

전용선의 이중화(Active-Active vs Active-Passive) 설계 방식을 비교하고, 전용선 장애 시 Site-to-Site VPN으로 Failover되는 구조를 BGP (Border Gateway Protocol) 우선순위 관점에서 설명하시오.


답안

가용성 설계 = 비즈니스 리스크 관리

가용성 설계의 핵심은 트래픽의 **방향성(Inbound vs Outbound) 따라 적절한 BGP 속성을 적용하여, 장애 시 수 초 내에 자동으로 경로를 전환하는 '자동화된 탄력성'을 확보하는 데 있습니다.

1. 주요 용어 상세 정의

용어 풀네임 및 정의 핵심 역할 및 특징
AS Autonomous System (자율 시스템) 하나의 관리 주체(기업, ISP 등)가 운영하는 독립적인 네트워크 단위. 고유한 ASN(AS 번호)을 가집니다.
BGP Border Gateway Protocol 서로 다른 AS 간에 경로 정보를 교환하는 표준 프로토콜. 경로의 '길이'와 '속성'을 보고 최적 경로를 결정합니다.
DX Direct Connect (전용선) 클라우드와 온프레미스를 물리적으로 직접 연결하는 전용 회선. 보안성과 일관된 성능을 보장합니다.
LP Local Preference (지역 선호도) AS 내부에서 외부로 나가는 트래픽의 출구를 결정할 때 사용. 값이 클수록 우선순위가 높습니다.
AS-Path AS Path Prepending 자신의 AS 번호를 인위적으로 여러 번 추가하여 경로를 길게 만드는 기법. 경로가 짧을수록 우선순위가 높습니다.
경로 전파 Route Propagation 자신의 네트워크 대역 정보를 인접한 라우터에 알려주는 과정 (기존 '광고'의 기술적 표현).

2. 하이브리드 가용성 설계: 트래픽 방향별 제어 전략

전용선(주 회선)과 VPN(백업)이 공존할 때, 양방향 트래픽이 의도한 대로 흐르도록 설정하는 것이 핵심입니다.

A. Inbound 제어 (온프레미스 → 클라우드)

B. Outbound 제어 (클라우드 → 온프레미스)


심화 답안

1. 전용선 이중화 설계 방식 (Active-Active vs Active-Passive)

구분 Active-Active (부하 분산) Active-Passive (대기 구조)
트래픽 흐름 두 DX 회선을 동시에 사용 (ECMP 활용) 평상시 DX1만 사용, 장애 시 DX2 전환
BGP 설정 양측에 동일한 LP 및 AS-Path 설정 주 회선에 높은 LP, 부 회선에 낮은 LP 설정
장점 가용 대역폭 합산 (1G + 1G = 2G 효과) 경로가 단순하여 트러블슈팅이 매우 용이함
주의사항 회선 장애 시 리스크: 한쪽 장애 시 남은 1G 회선이 전체 2G 트래픽을 감당 못 할 수 있음 유휴 자원에 대한 비용 발생 (Standby 회선)

2. 엔터프라이즈급 가용성을 위한 추가 기술: BFD (Bidirectional Forwarding Detection)

일반적인 BGP는 인접 라우터와의 '생존 확인(Keepalive)' 주기가 길어(보통 90초~180초), 회선 장애 발생 후 경로 전환까지 수 분이 걸릴 수 있습니다.

3. MTU 및 MSS Clamping 이슈 (중요)

전용선에서 VPN으로 Failover 될 때 가장 많이 발생하는 장애는 **"특정 웹페이지나 큰 파일이 안 열리는 현상"입니다.

4. 아키텍처 다이어그램 (BGP 속성 적용 가이드)

flowchart TD
    subgraph Cloud [Cloud VPC / VNet]
        VGW[Virtual Gateway]
    end

    subgraph OnPrem [On-Premise Data Center]
        R1[DX Router 1]
        R2[VPN Router]
    end

    %% Inbound 제어 (On-Prem -> Cloud)
    R1 -- "LP 200 (Highest)" --> VGW
    R2 -- "LP 100 (Backup)" --> VGW

    %% Outbound 제어 (Cloud -> On-Prem)
    VGW -- "Short AS-Path (Best)" --> R1
    VGW -- "Long AS-Path (Prepending)" --> R2

    linkStyle 0,2 stroke:#2ecc71,stroke-width:4px
    linkStyle 1,3 stroke:#e74c3c,stroke-width:2px,stroke-dasharray: 5 5

최종 요약:
Inbound는 LP로, Outbound는 AS-Path Prepending으로 제어 주도권을 확보해야 합니다. 또한 BFD를 통한 빠른 전환과 MSS Clamping을 통한 패킷 최적화까지 고려해야만 Enterprise급 가용성을 달성할 수 있습니다.